Scale: 目标做AI领域的AWS,数据标注生意做到73亿美元估值
Scale 是两位年轻华人创办的公司。
Scale 旨在 "建立以数据为中心的基础设施平台" 以 "加速人工智能应用的发展"。它的核心理念和所有业务均基于一个假设,即 "数据是新的代码"。
Scale 希望成为人工智能的企业代表,就像 AWS 之于云计算,Stripe 之于支付,Twilio 之于通信, Snowflake 之于数据分析一样。
Scale 在最初四年专注为人工智能/机器学习模型所需要的数据做标注。现在它正在向下游扩展,开发自有模型,并逐步进入人工智能/机器学习价值链的更多环节。客户包括美国国防部、PayPal、自动驾驶公司、科技巨头。
公司成立五年,2020年突破了 1 亿美元的 ARR,成为有史以来达到这一里程碑的最快公司之一。
在顶级成长期基金 Greenoaks Capital、Dragoneer 和 Tiger Global 三家公司共同主导的 3.25 亿美元融资后,其估值达到 73 亿美元。
Scale 的业务是建立基础设施,第一眼看起来不够诱人,但直至今日 Scale 做到的成绩已经给出了一个答案。
十年后,假如 Scale 成功了,任何想使用人工智能或机器学习的公司只需使用 Scale 服务套件,就像今天使用 AWS 云服务一样简单。Scale 为用户收集数据、生成数据、标记数据、训练机器学习模型、测试、报告、并持续为模型提供新数据等等。通过 Scale APIs,任何规模的公司将能够通过几行代码来建立人工智能驱动的产品。
在十年内,科幻作家想象中的人工智能,可能将像今天接受信用卡付款一样容易实现。对 Scale 下注就是赌数据标签是提供整套 AI 基础设施产品的正确起点。
Scale 的天花板很高。它有可能成为新一代最大的科技公司之一,并引领一个时代,其速度之快,从我们现有信息来看是难以理解的。但是,它的未来并不容易,Scale 将面临来自全球范围更大、更高人才密度公司的竞争,它仍然需证明很多东西。
Scale 值得研究的意义在于。这是深入了解人工智能和机器学习的很好视角,看清现在与科幻小说的区别。在未来,AI极有可能与计算机、互联网以及 web3.0 一起影响世界。
正文字数8745,阅读时间约 15 分钟。建议结合下方要点进行针对性阅读。
👇
01. 人工智能(AI)和机器学习(ML)的现状
02. Scale 概览
03.通过融资节奏观察 Scale 的演变
04.像 Stripe 一样厚积薄发
05.Scale 的挑战和未来机遇
01.
人工智能(AI)和机器学习(ML)的现状
无论是 AI 还是 ML,一切都基于优质数据。
技术人员常开玩笑说,机器学习只是线性回归的一种花哨说法,而人工智能则是机器学习的花哨说法。
人工智能是 "模仿人类智能的算法" 的统称,其中一部分正通过机器学习和深度学习实现,而另一些仍然只存在于科幻领域。
来源:IBM
人工智能大致可以分为两种,狭义人工智能(ANI)和通用人工智能(AGI)。我们今天谈论人工智能的时,我们谈论的是 ANI,或 "弱" 人工智能。这些算法可以在做某些具体任务时胜过人类,如下棋或蛋白质折叠。AGI,或 "强" 人工智能,指的是机器能学习或理解人类所做的任何事。这源自于电影《她》中的语音助手萨曼莎,《黑客帝国》中的特工,或《机械姬》中的艾娃。
今天我们称为人工智能的大多数东西都是机器学习。机器学习是:
“不由人类编写、而是从数据中学习的代码,其本质是归纳性的,而非推论性的。通常情况下,人类编写的代码将数据作为输入。ML 也将数据作为输入,但让机器自己学习代码。在 ML 中,算法是完全基于数据的,即算法 = F(数据)。”
在过去十年中,ML 中的一个子领域深度学习,点燃了 ML 和 AI 应用的发展。根据 Coursera 和谷歌大脑的创始人 Andrew Ng 的说法,深度学习模拟了人类大脑,称为人工神经网络——"它使学习算法更好,更易使用,并为机器学习和人工智能领域取得革命性的进展"。
深度学习的革命性之处在于,提供的数据越多,性能就越好。
本质上,深度学习所解决的,是让模型在更多的数据下更有效的提升性能。那么问题来了:如何获得更多优质数据?
02.
Scale 概览
Scale 集成了各种硅谷标签:AI、API 、YC 、巨大野心、年轻聪明的大学辍学生创始人、以及源于尝试的洞察力—— AI 需要更多优质数据。
Scale 创始人 Alexandr Wang 生于 1997 年,在 MIT 就读。2016年,Wang(当时19岁)联手 Lucy Guo(当时21岁,同是大学辍学生,卡内基梅隆大学,泰尔研究员),进入YC的2016年春季批次。他们在进入YC时还不太清楚自己要做什么,但 Wang 和许多创始人一样,善于观察。
“当我深入研究 AI 时意识到,数据是建立有意义的 AI 应用的瓶颈。我们需要花费大量时间和资源来做数据处理,使其可用于机器学习。没有标准化的工具或基础设施,AWS、Stripe 或 Twilio 也未曾解决这个问题。
比如我当时想在冰箱里建一个摄像头,让它告诉我什么时候该买东西,现在家里缺什么了。但我没有任何数据来实现这个功能。”
因此,Wang 和 Guo 在 YC 期间创办了 Scale,在2016年6月正式发布,最初的名字是 Scale API。
当时,他们的价值主张很明确:一行代码搞定繁杂的手工作业。
虽说 AI 听起来很神奇,但实际上很多任务,甚至是重复的、看似简单的任务,还是更适合人而不是机器做。在 Scale 官网第一个版本中,它列出了以下三个例子:
因此,Scale 认为自己是一个更可靠、更高质量的 Amazon Mechanical Turk(亚马逊运营的人工智能众包平台)。它使用 API 来简化请求工作的过程,并在后端进行真人审查、同行评审系统等,以确保高质量产出。例如,一家公司想审核内容时,可以通过 Scale 的 API 将内容提供给经过训练的外包团队,而不用内部雇佣。
通过融资节奏观察 Scale 的演变
在 YC 的天使轮投资后,Scale 在 A 轮融资新闻中阐明了业务重心的变化,不只是做高级版的 Amazon Mechanical Turk,还要做一个训练数据更好的 API,且多次提及AI:
“我们的客户反馈,将 AI 与人类智能准确结合,是建立可靠人工智能技术的关键。因此,我们相信 Scale 将成为 AI 下一波发展的基础设施。”
在 2018年8月 宣布 B 轮融资时,Scale 则强调了数据标签在自动驾驶中起到的作用:
“在自动驾驶领域,即当今深度学习最突出的应用场景之一,Scale 已经成为标记数据的行业标准。我们已经与许多行业领导者合作,如通用汽车、Cruise、Lyft、Zoox 和 nuTonomy 等。我们已经标注了超20万英里的自动驾驶数据(大约是地球到月球的距离)。”
没有数据,就没有 ML 或 AI。然而,低质量或错误标记的数据比没有数据更糟糕。为了获得数据来喂养模型,企业可以选择公开数据集、购买数据、或是自己生成数据。
迄今为止,Scale 公司最大的客户群体是自动驾驶技术的公司。这些公司有很大体量的原始数据需要标注,Scale 使用了 “Human-in-the-Loop” (HIL)系统。从成本和速度的角度出发,最理想的情况是让算法来标记所有内容,但它还难以胜任这个任务。
所以,Scale 的算法不是完全依赖机器,而是将视频分成若干帧,对图像进行第一次标注,然后由人类对模糊的部分进行标注,随后将标注的数据发送给 Scale,Scale 便用更多的 ML 和人类审查员进行检查,并将其发回给客户。这个过程对每一位读者来说都很熟悉:每次你需要 "选择所有带船的图片" 来登录某个网站时,你都在给数据标签以训练模型:
在数据标签方面,Scale 的长期目标是提高机器自身标记图像的准确率,这将推动成本下降,提高利润率。此外,随着人类对图像进行标注,他们也在训练 Scale 的算法,使其越来越准确——这就是 Scale 的数据飞轮。
2019 年8月,Scale 宣布获得 1 亿美元的 C 轮融资,由 Founder Fund 的 Peter Thiel 领投。Scale 在这一轮融资后估值达到10亿美元。此时,它的客户不再只是自动驾驶公司,还有 "OpenAI、Airbnb 和 Lyft"。Scale 的战略定位进一步发生变化,希望做一家基础设施公司。
人工智能公司常来了又去,因为它们总在竞争中寻找机器学习的最佳应用。但 Scale 在人工智能领域将长期存在,因为它正为这个领域最重要的玩家提供核心基础设施。
这一点很重要:作为一家拥有不同客户群的基础设施公司,Scale 的成功并不依赖任何一家公司、行业或用例的成功。相反,只要 AI 和 ML 领域增长,Scale 就会成功。一家自动驾驶数据标签公司随着自动驾驶的兴起而生,也随其衰退而死;然而,像 Scale 这样的人工智能基础设施公司,无论人工智能朝哪些不可预测的应用蓬勃发展,它都会成功。
与此同时,Scale 的规模不断扩大。在2020年第三季度,仅仅四年时间,Scale 就达到了1亿美元的 ARR 的规模,成为有史以来达到这一里程碑的最快公司之一。
来源: BVP State of Cloud
那条属于 Scale 的橙色增长线好比老虎的诱饵,引来了 Tiger Global。该基金领投了1.55亿美元的 D 轮融资,融资后 Scale 估值超过35亿美元。在宣布 D 轮融资的博客中,Scale 强调了新业务 Scale Nucleus:
“我们的团队正在解决人工智能开发的下一个瓶颈问题:跨团队管理整个 AI/ML 应用的生命周期。从零构建、部署可扩展的机器学习基础设施是低效且昂贵的,我们在8月推出了 Nucleus,以实现整个 AI 开发周期的无缝协作。”
Wang 将 Scale Nucleus 描述为 “着重数据调试的 SaaS 产品”,帮助公司可视化管理和改进自己的数据,以加速注释周期。根据 Scale 的网站,Nucleus 提供先进的工具,用于理解、可视化、策划和协作处理你的数据——让团队通过强大的界面和 API 建立更好的 ML 模型",好比谷歌照片与 Figma 的结合。
Scale Nucleus 界面
数据可视化和高效协作加速了 ML 的周期,以开发出更好的模型。
Scale 还有机会基于 Nucleus 捕捉更多长尾效应的企业,这意味着 Scale 可能为每个行业部署人工智能。
“在每个行业部署人工智能,” 是 Scale 最近3.25亿美元 E 轮融资公告的标题,由 Greenoaks Capital、Dragoneer 和 Tiger Global 领投,该公司的估值目前为73亿美元。公告再次强调了 Scale 的野心,即遍布整个 ML 的生命周期:
“Scale 正在打造一个基础设施,使企业能够管理整个人工智能项目的生命周期。无论他们是拥有一个内部的人工智能团队,还是需要一个 MaaS( 即 Models-as-a-Service,模型即服务)的解决方案,我们会与客户合作,从零开始建立他们的战略,并提供基础设施,以建立高性能模型。”
ML 生命周期;来源:Scale
Scale 不再仅为拥有内部人工智能和数据科学团队的自动驾驶公司和科技巨头提供数据标签服务。它开始管理更多的流程,使那些没有内部团队的公司也能使用人工智能打造产品。在公告中,Scale 提到像 Brex 和 Flexport 这样的公司使用其2020年4月推出的 Document 产品——Brex 用于发票,Flexport 用于物流文件业务。Scale Document 不仅为数据贴标签,还与客户合作建立定制模型。Brex 没有一个人工智能团队在做模型,但他们可以外包给 Scale。
Scale Document 简介
Brex 的 CEO Henrique Dubugras 说,该公司使用 Scale 建立了一个一键式账单支付产品,该产品获取发票、提取数据、让收件人一键支付。Brex 一开始找了许多专注于做光学字符识别(OCR)和发票提取的公司,但都没有提供让 Brex 满意的产品。
随后, Brex 便与 Scale 合作。Dubugras 说,“ Scale 打造的 ML 模型提取率更好。一键式发票支付对准确性要求很高,而 Scale 的人工审核环节增加了其模型的准确性。我们先前联系的公司,准确率在70%左右,而 Scale 的准确率接近100%。”
这证明 Scale 可以做得比数据标签更多。
Nucleus 和 Document 的早期成功都证明了 Wang 的论点:数据是建立一个完整产品的基本构件。
03.
如 Stripe 般厚积薄发
每家公司都喜欢将自己与 Stripe 比较,它受到大多数工程师和投资人的喜爱,并在短短十几年内成为了一个价值 950 亿美元的支付基础设施公司。
Stripe 有着一个崇高的使命——提高互联网的 GDP——并从花费数年时间打造支付电商支付基础设施。
Stripe 在 2009 年建立了支付 API,花了很多年完善,并在此期间与当时最大的客户之一 Lyft 携手合作,推出了 Connect,让企业向供应方付款,然后它便进入了一个没有发布新产品的四年期。
Stripe 好比弹簧,在这段沉寂期养精蓄锐。2015年,Stripe 推出了两个新产品,Identity(用于在线身份验证)以及 Terminal(首个支付硬件产品),随后陆续推出了更多产品。正如 Ben Thompson 指出,所有13个产品(除 Identity 外)都是建立在 Stripe 11年前打造的支付引擎上的。
Scale 所走的路径和 Stripe 有些类似。它和它的投资者押注的是,数据标签对于人工智能应用的发展就好比支付对于互联网 GDP 。换句话说,Scale 是一个针对 AI/ML 领域的 Stripe,就像 Stripe 能够利用支付基础扩展产品线一样,Scale 也将借助数据标签服务向下游发展。
最初的四年里,Scale 在数据标签和注释方面做得非常出色,正因它深信不疑数据是 AI 和 ML 的基本构件。自动驾驶汽车公司都会优先选择 Scale——对于 Scale 来说,这类型公司是最难服务的类别之一,因为数据质量生死攸关。这也同样适用于其它行业,如政府、医疗保健和科技等。
和 Stripe 一样,Scale 开始向整个 ML 研发的每个步骤运送产品——注释、管理、自动化、评估、收集、生成:
注释:这是 Scale 的核心业务,其重点是在保持注释质量的前提下,增加由算法而非人工的注释量。没多久前,Scale 新增了地图注释的功能,以扩大该产品的优势、提升地图类注释准确性、为客户提供更优质的定制模型。
管理:Scale 在2020年8月推出了 Nucleus,让企业通过一个可视化的云端界面来管理、策划和理解他们的数据。该产品为 Scale 拓展了更多小企业客户。
自动化:Scale 在2020年4月发布了 Document,使用自主构建的机器学习模型来处理和提取文件中的数据。它可以为客户提供训练有素的 ML 模型,在某些情况下甚至可以完全取代对 AI/ML 团队的需求。
评估:Nucleus 为客户测试、验证和调试模型。客户可以通过 API 上传预测结果、跟踪模型在一段时间内的表现、比较运行情况、根据指标对失败案例进行分类、并在精选数据上建立模型单元测试。
收集:Scale 主页有几个帮助公司收集数据的潜在产品,能够收集来自70多个国家的50多种语言的文本和音频数据。
生成:Scale 还提供一个生成人造数据的潜在产品,为模型提供更多可用数据。
Scale 正在走出 Stripe 创始人所说的那段沉寂期。
提前意识到 Scale 的优秀是很难的。Greenoaks 是世界上最好的风险基金之一,自 2012 年以来每年回报率为 51%,它过去曾评估过 Scale,但直到 E 轮才进行投资。在这期间,Scale 不断执行其愿景,不断努力证明数据是 AI/ML 的必需品。当领导 E 轮融资的机会到来时,Greenoaks 的 Neil Mehta 终于相信了," 我一开始认为数据注释只是一种服务,到现在我认为数据注释是真理的来源。如果你不对数据进行正确的注释,其他任何东西都不会起作用。"
注释数据和支付有另一个共同优势:它们都处于漏斗的顶端。在 Stripe 的案例中,欺诈检测、税收征管、市场支付和其他产品都是在企业没有得到付款之前发生的。Stripe 可以在最早阶段为公司提供服务,并与他们一起成长。在 Scale 的案例中,ML 的生命周期始于良好的数据;没有数据,公司便无法管理、自动化或评估。Scale 相信,像 Stripe 一样,它将能够在漏斗顶部获得客户,并随着时间的推移向他们出售一套附加产品,共同实现更快的研发周期,从而创造更准确、优质的模型。
也就是说,要像 Stripe 般增长,Scale 需要发布更多产品,以更好地服务于长尾客户,例如那些拥有工程团队但可能没有 AI/ML 团队的客户,正如它在 Brex 和 Flexport 上做的那样。Scale 的产品开发模式是:首先是人力密集型,之后变成软件密集型。
对于 Stripe 和 Scale 这两家公司来说,在大幅爆发之前就已经逐步积累了一定的实力。从一个商品服务(数据注释、支付基础设施)慢慢开始,做到极致,达到拐点,随后以最快的速度增长,并利用价值链中的战略地位来维持优势。
尽管 Scale 在产品、收入和估值方面都有所增长,但仍有许多人认为它是一个被高估的人力商品服务型企业,接下来让我们聊聊它的挑战和机遇。
04.
Scale 的挑战与机遇
挑战
关于 Scale 的一些争议认为:数据标签是一种商品,且不是一种关键商品。随着时间的推移,Scale 着重人工标注的方法将会过时,因为更多数据将会被自动标注,更多的人工标注将由移动的临时工完成,而不需要数据标注的无监督学习模型将会越来越普遍。此外,AI/ML 模型可能并不像 Scale 所期望的那样具有通用性,因此向下游发展会更难。同时,Scale 前后还面临着激烈的竞争——世界上最大的科技公司正向 AI/ML 投入大量资源,新的创业公司也每天都在涌现。
让我们逐一来看看这些挑战。
数据标签是一种商品,且不是关键商品。
这涉及两个方面:数据标签是否是一种商品,以及它是否是关键。
首先,虽然数据标签是一种商品,但 Scale 的客户要求极高的质量,极短的周转时间,以及处理大批量的能力。检验它是否是商品的一个方法是 Scale 是否有定价权——它似乎能够比竞争对手出价更高,以满足客户的高要求。
第二,数据是关键的。正如先前讨论的,AI/ML 行业最大的进步来自于模型能够摄取更多数据。Andrew Ng,该领域的领导者,正进行着一场讨伐,希望数据得到更多关注。
当今行业对数据的不重视,正是 Scale 的机会。许多人认为支付服务仅仅是一种商品,这给 Stripe 带来了许多好处。在其他人认为数据是商品的时候,Scale 能够建立其优势的时间越长,其他竞争者便越难赶上。
Scale 的人力密集型方法将变得过时。
长远来看,重人力的方法并不正确,但当前它对 Scale 的数据飞轮至关重要。当 Scale 的人工团队对数据进行标注时,他们也在训练 Scale 的机器标注模型。随着时间的推移,人工的比例已经下降,更多的工作由算法完成。
实际上,转向更多以算法主导的数据标签对 Scale 来说是一个福音,它在人类标签上训练的模型几乎比世界上任何人都多。
这些模型可能并不像 Scale 希望或认为的那样具有普遍性。
在 Tegus 举办的采访中,一位 Scale 的前客户主管认为在 NLP 的领域, Scale 难以与 Appen 竞争。他补充道,“由于 Appen 历来专注于 NLP,而 Scale 历来专注于计算机视觉,双方都很难在对手的地盘上赢得业务。”
但这些评价已经不适用了,Scale 提供给 Brex 和 Flexport 的服务就是基于 NLP 技术的。虽然 Scale 的 ML 模型产品化仍属于早期阶段(Brex 和 Flexport 只是两个例子),但 Brex CEO Dubugras 提出的一个观点很有说服力:“当 Brex 开始使用 Scale Document 时,即便它与 Brex 先前要求的模型并不一致,但同样可以提取和操作发票上的数据,且极其高效准确。”
"训练模型需要一点时间," Dubugras 解释说,"但一旦训练好了,它会比传统方式都要好得多。" Scale 并不以 OCR 或 NLP 等特定领域著称,但它在正确的数据上训练了模型,并在几周内获得了 Brex 的大力支持。
Scale 前后面临着激烈的竞争
有一场关于数据和人工智能的竞赛正在进行。每年,FirstMark 的 Matt Turck 都会发布一份关于数据和人工智能的报告,以下是 2020 年报告中的市场地图:
来源: Matt Turck
Scale 是 "数据生成和标签" 类别中的那个小红圈,面临着来自 Amazon Mechanical Turk (提供更便宜但质量更低的标签),以及 Hive、Appen、Upwork、Unity、Lionbridge、Labelbox 和 AI.Reverie 的竞争。尽管如此,Scale 似乎是该类别的领头羊。此外,数据标签和生成只是 "基础设施" 领域的20个类别之一,看一下市场地图,想象 Scale 从它的小盒子中脱颖而出,成为 AI 和 ML 的基础设施层,将会是一番怎样的景观。
此外,世界上最大的科技公司——Facebook、微软、谷歌等——正在为人工智能研究投入数十亿美元。Facebook 有一个由1万多人组成的内容审核团队,负责从网站上删除不良内容,正在想办法把人工从内容筛选的过程中移除。在5月中旬的 Substack 中,谷歌负责机器学习的 PM Aishwarya Nagarajan 展示了 Facebook 的新计算机视觉系统 DINO,可以在没有任何训练数据的情况下分割图像。Goole reCAPTCHA 的方式更巧妙,通过验证码获取数据标注。
当问到 Wang,“像 DINO 这种无需数据的无监督学习模型对 Scale 是否构成的威胁” 时,他这样回答:
“无监督模型并没有消除对人工标记数据的需求,而是转移了这种需求。顶级研究人员的共同观点是,无监督模型将产生一个具有部分 "基础" 能力的模型,但要创建一个在现实世界中有用的算法,你需要已经标记过的数据来实现一个名为 "微调" 的过程。即使是无监督学习的顶级研究人员也在积极研究如何使用标记数据集来使该模型表现得更好。
其次,Deflationary technology 这种通缩性质的科技实际上增加了市场规模,特别是在像人工智能这样具有战略价值的行业。研究中的大多数技术旨在提高标记数据的使用效率,例如从 50 个标记数据点而不是 100 个获得相同的结果。然而,更高的效率非但没有减少,反而可能创造出更多对标注数据的需求。例如,摩尔定律使计算基础设施的效率每两年提高2倍,使得对芯片的需求爆炸性增长,因为更高的效率促进了新应用,增加了总需求。Wang 认为,类似的现象将在人工智能领域上演,并加速市场的增长。”
当风险也能转化成机遇时,你就进入了正确的市场。像以太坊一样,鉴于 Scale 在价值链中的地位,作为基础设施层,它将从该领域的竞争加剧、更多的 AI 和 ML 的应用中受益。现在的问题是,Scale 能抓住多少机会。
未来机遇
在这个发展迅猛的新生市场中,Scale 增长速度惊人,证明了它有能力利用数据作为基础构件,成功地扩展到新的行业垂直领域和产品线。它的数据飞轮旋转得越来越快——如果它是成功的, Scale 将成为这个领域的基础设施,发展到其触及经济的每一个部门,并将像那些领先的基础设施公司实现复合效应。
Scale 增长速度惊人。
首先,Scale 正在快速增长,通过扩展自动驾驶领域以外的客户(从国防部到 PayPal 等),它20年的收入相较前年增加了一倍多,超过了 1 亿美元。
同时,Scale 的 “Human-in-the-Loop” (HIL)系统相当有效:由于软件受益于人工数据,并能处理不同种类标签,在过去两年里,Scale 公司在降低价格的同时,也大幅扩大了利润率。它现在看起来更像一个软件企业,而不是一个服务企业。
而且 Scale 面对的市场机会是巨大的,以下是一些统计数字:
只有 8% 的数据专业人士认为他们的组织正在使用 AI ,近 90% 的员工认为数据质量问题是公司未能成功实施人工智能和机器学习的原因。
麻省理工学院研究人员发现,只有 7% 的组织将人工智能模型投入生产。
在未来几年里,没有一个行业不受到数据训练模型的影响——从医疗到制造到金融到安全到运输。如果像 Scale 预测的一样,它能够提供 AI/ML 基础设施,为每个行业服务,这意味着一个巨大的机会。
人工智能基础设施市场预计将在未来几年内达到 1000-3000 亿美元,且增长迅速。仅从其目前提供的产品来看,预计到 2024 年,数据注释的 TAM 将超过 200 亿美元;在同一年,Scale Document 和 Nucleus 相关业务的 TAM 将分别达到 100 亿美元和 80 亿美元。还未考虑新产品的情况下,等待 Scale 的是一个 400 亿美元的 TAM。
在一个快速增长、发展的市场中成为基础设施供应商可以为 Scale 获取巨大优势:无论哪种技术、应用或公司取得胜利,Scale 都能从他们的竞争和努力中获益。
拓展新的垂直领域和产品系列
随着时间的推移,Scale 一直在向这个世界证明:注释数据是真理的来源,是助长人工智能和 ML 燃料。Scale 能够注释各种数据,专攻自动驾驶公司的计算机视觉模型。并且证明了两件事:
Scale 擅长为各种数据贴标签,其客户包括国防部等政府机构、Airbnb等市场平台、Brex 等金融科技公司、甚至还有 AI powerhouse 和 GPT-3 开发商 OpenAI。每个人都有非常不同的数据标签需求,但 Scale 拿下了它们的合同,提供了极其优质的服务。
数据定义了系统。随着 Scale 进入多个垂直领域,它逐渐扩大产品线,且受益于其数据优势。它在建立跨垂直领域的模型方面证明了早期的成功,并证明了 Alexandr Wang 曾说过的:" 如果在自动驾驶汽车上有一个识别行人的算法,另一个检测肿瘤的算法实际上有着非常相似的代码,区别在于数据。"
Scale Document 是一个非常重要的产品,它极大地提高了 Scale 的市场上限,将 Scale 从仅开放给拥有 AI 团队企业的数据注释公司成长为任何想纳入 AI/ML 的公司使用的基础设施。
数据飞轮
如果 Scale 在未来几年内成为一家 1,000 亿美元的公司,其数据飞轮将扮演重要角色。
更多的客户→更多的标签人员→更快的周转率和更高的吞吐量→更多的客户。
Scale 同时也受益于数据网络效应,使其飞轮旋转得更快,因为随着更多的标签人员更快地给更多客户的数据贴上标签,Scale 的模型也将进一步改善,使整项业务旋转得更快。
如果更好的注释数据是 AI/ML 基础设施的不可或缺的一部分,如果它是 AI/ML 应用的必需品,那么 Scale 的数据飞轮将为它在激烈竞争中取得更多优势。
护城河
早期领先是一回事;面对资金雄厚的竞争对手,能够留住利润是另一回事。为了保护利润,你需要护城河。
Scale 主要得益于三种力量——规模经济、转换成本高和垄断性资源。
规模经济:即我们刚提及的数据飞轮,Scale 的客户越多,它的模型就越好,而以相同质量标记数据的成本就越低。例如,使用 Document 的客户越多,Scale 训练模型的数据越多(开始时有人工输入),模型处理各种文件的能力就会越强。随着时间的推移,Scale 也应该能够降低其提供模型的成本。
高转换成本:仅就 Scale 的注释产品而言,转换成本是相当低的,然而它通过提供更高质量的产品来留住客户。随着 Document 以及未来模型产品的推出,客户离开 Scale 成本将越来越高,因为 Scale 会随着使用情况不断改进客户的模型。如果他们更换供应商,就需要重新培训模型。Brex CEO Dubugras 如是说,"如果搬离 Scale,我们将不得不从头开始。脱离 Scale 还意味着需要工程师们争吵,我一点都不感兴趣。“
垄断性资源:可以说,Scale 在过去五年拥有垄断性的数据和模型,但它真正的垄断性资源是人工智能人才。当我问 Dubugras 为什么 Brex 不雇佣一个团队自己建立模型时,他透露了 Scale 的最大优势之一:"看,他们有很多市场上最好的人工智能人才,雇用一个伟大的团队是相当困难的。人工智能工程师希望在解决最难的人工智能问题的公司工作,而 Scale 就是其中之一。" 通过垄断伟大的人工智能人才市场,Scale 可以为客户打造更好的产品,并使大多数客户很难自行搭建内部团队。
规模经济、转换成本和角落资源是 Scale 的三大要素。它们相互促进,在它周围挖出护城河,为 Scale 实现复合效应铺平了道路。
从长远来看,Scale 正在建立一个越来越依赖干净数据的世界,并成为真理的来源。从当前的立足点,它正在扩展新产品线,增强大型科技公司的 AI 和 ML 团队,并为那些无法依靠内部团队、但又不得不建立 AI 和 ML 模型的公司提供全套帮助。
这就是 Scale 的愿景:它需要时间。如果这一切都是从一个数据标签的商品业务中生长出来的,时间会告诉我们答案。
编译:海外独角兽 Kahei Hong
延伸阅读
Epic Games 千亿美金之路(上篇):虚幻引擎
SHEIN 不是线上版 Zara,是电商界的 Tiktok
Stripe:从7行代码到千亿美金的互联网基础设施
新设计时代:Figma 和 Canva 如何颠覆 Adobe